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Veroffentlicht 

Mit inteniationalem Recherchenbericht 
Vor Ablauf derJUr Anderungen der Anspruche zugelasse- 
nen Frist Veroffendidtung wird wiederholt falls Anderun- 
gen eintreffen. 



(54) Tide: METHOD OF PROCESSING UNCERTAINTIES IN INPUT DATA IN NEURONAL NETWORKS 

(54) Bezeidinung: VERFAHREN ZUR VERARBEITUNG VON UNSICHERHEITEN VON EINGANGSDATEN IN NEU- 
RONALEN NETZWERKEN 

(57) Abstract 

In many applications, the input signals in neuronal networks are beset by considerable uncertainties. For this reason, train- 
ing data are often not representative enough for the test phase data. A method of processing uncertainties in neuronal networks is 
proposed to solve this problem. Modified input signals are calculated from the input signals of neurons by linearly combining the 
input signals with neutral values. The coefTicients of this linear combination are measures of the certainty of the input signals. 

(57) Zusammenfassung 

Die Eingangssignale in neuronalen Netzwerken sind bei vielen Anwendungen mit erheblichen Unsicherheiten behaftet. 
Aus diesem Gninde sind die Trainingsdaten vielfach fur die Daten der Testphase nicht genilgend reprasentativ. Zur Losung die- 
ses Problems wird eln Verfahren zm Verarbeitung von Unsicherheiten in neuronalen Netzen vorgeschlagen. Aus den Eingangs- 
signalen von Neuronen werden modifizierte Eingangssignale berechnet, indem die Eingangssignale mit neutralen Werten linear 
kombiniert werden. Die Koeffizienten dieser Lienarkombination sind MaBe fur die Sicherheit der Eingangssignale. 
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Verfahren zur Verarbeitung von Unsicherheiten von Eingangs- 
daten in Neuronalen Netzwerken. 

5 

Die aus der Literatur bekannten Arten von ktinstlichen 
neuronalen Netzen weisen die Eigenschaft auf, daS die 
Eingangsdaten direkt mit einem Knoten eines Netzes 
verbunden sind, Aus diesem Grunde ist es nicht moglich, 

10 unsichere Daten auch bei bekannten Unsicherheitsf aktoren 
von einem Knoten zu entkoppeln. Stattdessen nimmt man an, 
dafi wahrend eines Trainings mit einem statistisch 
signif ikanten Satz von Trainingsdaten automatisch 
Gewichtsf aktoren mit Werten nahe bei 0' fur- diejenigen 

15 Eingangsleitungen eingestellt werden, die mit groSen 
Unsicherheiten behaftet sind. Im Erkennungsmodus bewirken 
diese kleinen Gewichtswerte dann eine Maskierung der 
entsprechenden Daten. 

20 Diese Vorgehensweise hat den Nachteil, dafi zum einen diese 
Einstellungen statisch sind, d. h. daS einmal als unsicher 
eingestufte Eingangsverbindungen immer mit kleinen Werten 
ihrer Gewichtsf aktoren behaftet und damit nur von geringem 
EinfluS auf das Verhalten des Netzwerkes sind, und daS es 

25 zum anderen fur viele Anwendungen nahezu unmoglich ist, 
einen wirklich signif ikanten Satz von Trainingsdaten im 
Voraus zu bestimmen. Da in vielen Anwendungsgebieten der 
neuronalen Netze, wie z. B. in der Bild- und 
Sprachverarbeitung nur ein sehr eingeschranktes Wis sen 

30 vorhanden ist, bedeutet die Forderung nach signif ikanten 
Trainingsdaten die Aufnahme und Speicherung einer extrem 
groSen Stichprobe und damit auch extrem lange 
Trainings zeit en fur ein neuronales Netzwerk, 

35 Die geschilderten Umstande fuhren meist dazu, daS mit einer 
den Mdglichkeiten angepafiten stark eingeschrankten 
Trainings stichprobe gearbeitet werden muS, wodurch die 
resultierenden Netzwerke nur fur sehr spezielle Situationen 
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rep:rasentativ sein konnen. In diesen Fallen fiihren dann 
Daten, die nicht mit denen der Trainingsphase koharent 
sind, zu Problemen in der Erkennungsphase. Falls das Ver- 
halten der Daten systematische Grunde hat, kann nicht s 
5 anderes getan werden, als das Netzwerk mit einem besser 
angepaSten Satz von Trainings daten erneut zu trainieren. 
1st aber andererseits das widerspruchliche Datiim durch eine 
erkennbare Storung bedingt bzw. kann ein Bewer- 
tungskriterium fur die Verlafilichkeit eines Datums 
10 ahggegeben werden, ist es wunschenswert, dieses Wissen in 
der Berechnung durch das Netzwerk zu berucksichtigen, 

Der Erf indung liegt die Aufgabe zugrxinde, ein Verf ahren an- 
zugeben, mit dem bekannte Unsicherheiten von Eingangsdaten 
15 • neuronaler Netzwerke berucksichtigt werden konnen, \aa das 
Verhalten eines neuronalen Netzwerkes in der Testphase zu 
verbessem, Diese Aufgabe wird durch ein Verf ahren zur 
Verarbeitung von Unsicherheiten von Eingangsdaten in 
neuronalen Netzwerken mit Merlonalen nach Anspruch 1 gel6st. 

20 

Vorteilhafte Weiterbildungen des Verfahrens ergeben sich 
aus den Unteranspruchen . 

Fig. 1 zeigt den Raum der moglichen Eingangssignale eines 
25 Neurons mit zwei Eingangen, in denen zwei Klassen von 
Trainingsdaten , welche durch eine eindimensionale 
Hyperebene (Gerade) getrennt sind, eingezeichnet sind. 

Fig- 2 zeigt die gleiche Situation wie Fig. 1 mit 
30 Testdaten, deren Varianz die der Trainingsdaten ubersteigt. 

Fig, 3 zeigt die gleiche Situation wie Fig. 2 mit einer 
zweiten Hyperebene (Gerade) , welche die beiden Klassen von 
Testdaten zutreffend separiert. 

35 

Tm folgenden wird die Erf indung anhand eines bevorzugten 
Ausfahrungsbeispiels sowie anhand der Figuren naher 
erlautert . 
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Die in dieser Patentanmeldung verwendeten Fachbegriffe sind 
allgeraein ublich und sind in dem Buch von D.E, Rximelhart, 
J.L. Mac Clelland (Herausgeber) : "Parallel Distributed 
5 Processing, Vol, 1: Foundations", MIT Press, Cambridge MA 
(1986) , speziell in dem Artikel "Learning Internal 
Representations by Error Back Propagation" von D.E, 
Rumelhart, G,E, Hint on, R*j. Williams erlautert . 

Neuronals Netze sind im allgemeinen aus einer Vielzahl von 
Meuronen aufgebaut, welche aus einer Vielzahl von Eingangen 
unter Verwendung von Gewichtsf aktoren eine gewichtete Summe 
berechnen und diese gewichtete Summe unter Verwendung einer 
vorzugsweise sigmoidalen Transf erfunktion einer 

Schwellwertentscheidung unterwerfen* Hierdurch kann jedes 
Neuron zwei Klassen seiner Eingangsdaten unterscheiden, 
wobei es fur die eine Klasse die Ausgangsaktivitat "0", 
fur die andere Klasse die Ausgangsaktivitat "1" verwendet . 
Die Verbindungsgewichte (Gewichtsf aktoren) zwischen den 
Eingangen und dem Neuron werden in einer Trainingsphase 
durch Anpassung der Gewichtsf aktoren an einen Satz von 
Trainingsdaten eingestellt bzw. erlernt . Ein mogliches 
Trainingsverfahren (Rumelhart, 1986) realisiert einen 
Gradientenabstieg uber einer Fehleroberf lache. Durch 
Verwendxing einer sigmoidalen Transf erfunktion wird die 
bestmdgliche Trennbarkeit der beiden Klassen erreicht. 

Zxrni besseren Verstandnis wird das Verfahren zunSchst - ohne 
die Allgemeing-Qltigkeit zu beschranken - am Beispiel eines 
30 einzelnen Neurons des Percept ron-Mode lis mit K = 2 
Eingangsleitungen abgeleitet • Dieses Neuron kann zwei 
Klassen unterscheiden, wobei fur die eine Klasse die 
Ausgangsaktivitat des Neurons "0", fur die andere "1" ist. 
Es sei ferner angenommen, daS in diesem Beispiel die 
35 Klassen durch eine lineare Ebene getrennt werden konnen und 
daS nur eine Eingangsleitung die notwendige Information fur 
diese Unterscheidung beitragt. Die zweite Eingangsleitung 
soli hier nur . redundant e Inf ormationen fuhren. Fig. 1 zeigt 



<WO ^9300652A1_L> 



wo 93/00652 



PCr/DE92/00494 



zwei Klassen Kl bzw. K2 von Trainingsdaten, die durch eine 
lineare Hyperebene HI (Gerade) getreimt werden konnen. Da 
die beiden Klassen von Trainings da ten sowohl durch eine 
horizontal als auch durch eine vertikal verlaufende 
5 Hyperebene getrennt werden konnten, steht nicht von 
vornherein fest, welcher der beiden Eingange II bzw. 12 die 
zur Trennung der beiden Klassen mafigebende Information 
tragt. Fig. 2 zeigt die gleiche Situation Wie in Fig. 1, 
wobei allerdings eine groEere Datenmenge - die Testdaten^ 
10 welche die Trainings da ten ebenfalls umfassen - verwendet 
wurde. Die beiden Klassen Kll bzw- K21 von Testdaten sind 
nun nicht mehr durch eine horizontal verlaufende Hyperebene 
zu trennen^ sondem lediglich durch eine vertikal 
verlaufende Hyperebene. Die in Fig. 1 und Fig. 2 sichtbare 
15 diagonal verlaufende Hyperebene HI ist zwar in der Lage, 
die Trainingsdaten zutreffend in zwei Klassen einzuteilen, 
nicht aber die Testdaten. Dies hangt damit zusammen, daS 
die Testdaten eine grofiere Varianz - hauptsachlich in dem 
Eingangs signal 12 - aufweisen als die Trainingsdaten. Es 
20 ist also der Eingang II, welcher die Information zur 
zutreffenden Trennung der Testdatenklassen Kll bzw. K21 
tragt. Ist num - wie in vielen Anwendungs fallen - von 
vornherein bekannt, dafi einer der Eingange oder im allge- 
meinen mehrere Eingange mit einer Unsicherheit behaftet 
25 sind und daher keine zuverlassige Trennung der Testdaten 
erlauben, ist es wunschenswert. ein Verfahren anzuwenden, 
welches bei Verwendung der Trainingsdaten von Fig. 1 auf 
die Hyperebene H2, welche in Fig. 3 dargestellt ist, fuhrt. 
Die Hyperebene H2 trennt namlich sowohl die Trainingsdaten 
30 als auch die Testdaten zutreffend in zwei Klassen Kll bzw. 
K21. Ein solches Verfahren mufi von dem Wissen uber die 
Unsicherheit der Information des Eingangs 12 Gebrauch ma- 
Chen. Die in den Fig. 1, 2 und 3 dargestellte Situation ist 
eine starke Vereinf achiing der bei vielen Anwendungen, wie 
35 z. B. in der Bild- und Sprachverarbeitung auftretenden 
Situation, bei denen hochdimensionale Eingangsvektoren 
vorkommen, der en einzelnen Komponenten eine erhebliche 
Redundanz aufweisen. 
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Die allgemeine erf indungsgemafie Losung des beschriebenen 
Problems besteht darin, die Eingangswerte eines Neurons 
Oder mehrerer Neuronen des neuronalen Netzes nicht direkt 
5 mit den Gewichtsf aktoren zu multiplizieren und 
auf zusuminieren, sondern aus den Eingangssignalen der 
Neuronen zunachst modif izierte Eingangssignale zu 
berechnen, welche die unterschiedlichen Unsicherheiten 
verschiedener Eingangssigrnale zutreffend berOcksichtigen . 

10 

Im allgemeinen berechnet ein Neuron namlich aus seinen Ein- 
gangswerten i^ einen Ausgangswert a nach der Formel 

(1) a = f { I^^i...K Wk-ik + e ) , 

15 

wobei a der Ausgangswert (Aktivitat des Neurons) , w-^ der k- 
te Gewichtswert (Gewichtsf aktor) , ±y. der k-te Eingangswerc 
(Eingangs signal) und 6 ein Schwellwert ist , Sind fur jeden 
Eingangsvektor 1= (i)^, . . . , i^^) die Sicherheitswerte s^ init 
20 Werten zwischen 0 und 1 gegeben, so konnen modif izierte 
Eingangswerte nach folgender Formel berechnet werden: 

(2) 3y: = s^-i], + (1-Sk) -n^, 

25 Hierbei ist n^^ der k-te Wert eines Neutralvektors N. Die 
Komponenten n^ des Neutralvektors geben also diejeniger. 
Werte der modif izierten Eingangssignale an, welche diese 
bei maximaler Unsicherheit (miiiimale Sicherheit, = 0^ 

annehmen. Vorteilhafte Werte fur die Komponenten des 

30 Neutralvektors werden spater angegeben, 

Mit diesen modif izierten Eingangssignalen kann nun die 
Neuronenaktivitat wie folgt berechnet werden: 

35 (3) a = f ( Xj^=i.,.K Wk-Dk + 9 ), 

Hierdurch ist die der Erfindung zugrundeliegende Aufgabe 
gelost/ welche darin besteht, bekannte Unsicherheiten von 
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Eingangssignalen in neuronalen Netzwerken zur Verbesserung 
des Net zwerkverhal tens zu verwenden. Es ist aber weiterhin 
vorteilhaft, wenn jedes Neuron zusatzlich zu seinem 
Ausgangswert (Neuronenaktivitat) eine durchschnittliche 
5 Sicherheit seiner Eingangssignale nach folgender Beziehung 



(4) ^0 = K ^lc=l. . .K 



10 



aus den Sicherheitswerten seiner Eingangssignale 

berechnet. Dieser durchschnittliche Sicherheitswert kann 
dann an Neuronen nachfolgender Stufen des neuronalen 
Netzwerks weitergegeben werden, wodurch auch Neuronen in 

15 nachfolgenden Stufen Sicherheitswerte nach dem gleichen 
Verfahren auswerten konnen. Insbesondere k6nnen die 
Neuronen der letzten Stufe eines neuronalen Netzwerks soinit 
die Sicherheit ihrer Ausgangswert e berechnen, was zur 
Beiirteilimg der Netzwerkleistung, d. h. der Qualitat der 

20 Klassifikation verwendet werden kann. Das hier beschriebene 
Verfahren kann ohne weiteres auch in ruckgekoppelten 
neuronalen Netzen Verwendxing finden. Hierbei sind dann 
einige der Sicherheitswerte nicht vom Anwender vorgegeben, 
sondern von anderen Neuronen im neuronalen Netz berechnet. 

25 Der Begriff Neuronales Netz kann also in der allgemeinsten 
Bedeutung dieses Wortes verwendet werden, wobei 
insbesondere an neuronale Netze zu denken ist, welche durch 
entsprechende Computerprogramme auf hierfur geeigneten 
Rechenanlagen realisiert werden. Auf der anderen Seite kann 

30 das Verfahren auch im Rahmen von schaltungstechnisch 
realisiert en neuronalen Netzen verwendet werden. 

Der Neutralvektor N kann als Schnittpunkt der durch das 
Trainingsverfahren eingestellten Hyperebene mit denjenigen 
35 Hyperebenen berechnet werden, welche sich ergeben, wenn 
jeweils ein Eingangssignal eines Neurons xinberucksichtigt 
bleibt. Hierbei erhalt man K verschiedene Hyperebenen fiir 
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je ein Neuron mit K Eingangen: Eine Hyperebene, die den K- 
dimensionalen Raum unterteilt, sowie K - 1 weitere Hyper- 
ebenen, die die K - l-dimensionalen Unterraiome unterteilen. 
Ein solches mehrfaches Trainings verfahr en kann simultan 
5 durchgeftihrt werden, wobei etwa der K-fache Aufwand an 
Rechenzeit und Speicherplatz notwendig wird. Am Ende eines 
solchen Mehrf achtrainingsverf ahrens mussen kann K lineare 
Gleichungen zur Bestiininung des Schnittpunktes aller 
Hyperebenen gelost werden. 

10 

Da dieser Ansatz sehr aufwendig ist und zur Trainingsphase 
eine weitere Phase mit der Losung des linearen 
Gleichungssystems erfordert, wird ein weiteres spezielles 
Verf ahren zur iterativen Bestiramung des Neutralvektors 
15 verges chl agen . Dieses Verf ahren kommt ohne zusatzliche 
Berechnungsschritte aus und ist insgesamt weniger 
aufwendig. Dieses weitere Verf ahren sieht vor, anstelle des 
Schnittpunktes von K Hyperebenen den Schwerpunkt der im 
Training beobachteten, auf die durch die moment anen 
20 Gewichtsf aktoren definierte Trennebene H projizierten 
Eingangswerte des Neurons zu ersetzeri. Hierzu mussen le- 
diglich K zusatzliche Parameter zur Charakterisierung des 
Neutralvektors gespeichert und nach jeder Prasentation 
neuer Trainingsdaten I angepafit werden. Nach einer 
25 geeigneten Initialisierung des Neutralvektors mit dem Wert 
Nq umfaSt das Verfahren zur iterativen Berechnung des 
Neutralvektors damit fur jede Prasentation neuer 
Trainingsdaten I im wesentlichen 2 Schritte: 

30 1) Bestimmung der Projektion I* von I auf H und 

2) Korrektur von l^s^it in Nj^^^ Hilfe von I* 

Schritt 1 stellt sicher, dafi alle Modif ikationen von N in 
der Trennebene H erfolgen. Schritt 2 berechnet iterativ den 
35 Schwerpunkt aller Projektionen. 

Die Projektion I' von I auf H ist bestimmt durch 



30OCID: <W0 9300652A1 J_> 



wo 93/00652 



8 



PCr/DE92/00494 



10 



20 



wT-i + e 

(5) I' = I - wi'-w • 

wobei W den Spaltenvektor der Verbindungsgewichte = 
(wi,...Wk), welcher die Trennebene H definiert, den 
transponierten Vektor W und 9 den Offset der Trennebene H 
bezeichnet. Die Korrektur (Anpassvmg) von N erfolgt dann 
nach der Vorschrift 

(6) Nneu = Nait + Y " (I' " ^alt) ' 



wobei Nait <^^^ vorherige Wert des Neutralvektors , Nneu der 
korrigierte Wert des Neutralvektors, imd y ein Faktor 
zwischen 0 xind 1 ist, welcher die Geschwindigkeit der 
Korrektxir des Neutralvektors bestimmt. Y kann konstant 
15 gewahlt werden, falls fur jede Klasse etwa gleich viele 
Beispiele verfugbar sind. 1st dies nicht der Fall, itiufi y 
entsprechend der Klassenzugehorigkeit des aktuellen 
Trainingsmusters umgekehrt proportional zur Anzahl der 
Beispiele dieser Klasse gewahlt werden. 



Falls der Vektor W, der die Trennebene H definiert, wahrend 
des Adaptionsprozesses von N konstant bleibt (d. h. wenn 
die Trennebene in einer vorangegangenen Lernphase 
eingestellt wurde) und falls die Initialisierung Nq sc 

25 gewahlt wurde, daB die Gleich\ing fur H erfullt ist, gilr 
dies auch nach der Adaption von N. Auf der anderen Seite 
konnen beide Prozesse {das Training der Trennebene H und 
die Adaption des Neutralvektors N) parallel durchgefuhrt 
werden. Dabei wird Nq mit kleinen Zufallszahlen vorbelegt. 

30 Auch in diesem Fall, in dem N der sich stetig verdndemden 
Trennebene H folgt, stellt sich nach genugend langer 
Adaption der gewunschte Vektor N ein. 



35 
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Patentanspruche 

1 . Verf ahren zur Verarbeitung von Unsicherheiten von 
Einganssignalen in Neuronalen Netzwerken, bei dem aus 

5 Eingangssignalen von Neuronen modif izierte Eingangssignale 
in Form einer Linearkombination der Eingangssignale mit 
neutralen Werten, deren Koef f izienten MaSe fur die 
Sicherheit der Eingangssignale sind, berechnet werden, ^ 

10 

2. Verf ahren nach Anspruch 1, bei dem Neuronen zusatzlich 
2U ihrer Aktivitat einen weiteren Ausgangswert ermitteln, 
welcher die durchschnittliche Sicherheit ihrer 
Eingangssignale charakterisiert • 

15 

3. Verf ahren nach einem der vorhergehenden Anspruche, bei 
dem die neutralen Werte wenigstens eines Neurons die 
Komponenten eines Neutralvektors bilden, welcher ein Punkt 
auf derjenigen Hyperebene 1st, die einen Satz von 

20 Trainingsdaten in zwei Klassen unterteilt. 

4. Verf ahren nach Anspruch 3, bei dem der Neutralvektor ein 
gemeinsamer Punkt aller derjenigen Hyperebenen ist, welche 
die Trainingsdaten in zwei Klassen unterteilen, wenn man 

25 jeweils ein Eingangs signal unberucksichtigt laiSt • 

5. Verf ahren nach Anspruch 3, bei dem der Neutralvektor N 
mit Hilfe der Beziehungen 

30 (5) I' = I - v^T.w • ^ 

sowie 

(6) Nneu = Nait + Y • d' - Nait) 

35 

iterativ aus. den Eingangssignalen I eines Satzes von Trai- 
ningsdaten berechnet wird, wobei 
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W der Vektor der Gewichte eines Neurons, 
wT der transponierte Vektor dieser Gewichte, 
9 die Schwelle dieses Neurons, 
Nneu neuer Wert des Neutralvektors , 

5 Nait alter Wert des Neutralvektors und 

Y eine Konstante zwischen 0 und 1 ist. 



10 
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